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Ciclul de viaţă al inteligenţei artificiale 


Nicolae Sfetcu 


Rezumat 


Ciclul de viață al unui sistem al inteligenţei artificiale include mai multe faze 
interdependente, de la proiectarea şi dezvoltarea acestuia (inclusiv subfaze precum analiza 
cerințelor, colectarea datelor, instruire, testare, integrare), instalare, implementare, operare, 
întreținere şi eliminare. Având în vedere complexitatea sistemelor inteligenței artificiale (Și în 
general cele de informaţii), se pot defini mai multe modele şi metodologii pentru a gestiona această 
complexitate, în special în fazele de proiectare şi dezvoltare, cum ar fi dezvoltare de software agilă, 
cascadă sau spirală, prototipare rapidă și incrementală. Ciclul de viaţă al inteligenţei artificiale 
defineşte fazele pe care ar trebui să le urmeze o organizaţie pentru a profita de tehnicile inteligenței 


artificiale şi în special de modelele de învăţare automată pentru a obţine valoare practică de afaceri. 


Cuvinte cheie: ciclul de viaţă, inteligența artificială 


Abstract 


The life cycle of an AI system includes several interrelated phases, from its design and 
development (including subphases such as requirements analysis, data collection, training, testing, 
integration), installation, implementation, operation, maintenance and disposal. Given the 
complexity of artificial intelligence (and information systems in general), several models and 
methodologies can be defined to manage this complexity, especially in the design and development 
phases, such as agile, waterfall or spiral software development , rapid and incremental prototyping. 
The AI lifecyele defines the phases an organization should follow to take advantage of AI 


techniques and specifically machine learning models to achieve practical business value. 
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Pentru a încadra în mod corespunzător domeniul inteligenţei artificiale (AI), este esenţial 
să se urmeze o abordare structurată și metodică pentru a înţelege diferitele sale fațete. Din acest 
motiv, se poate opta pentru a obţine o viziune funcțională a ciclului de viaţă a sistemelor AI tipice. 
În consecință, activele implicate (de exemplu, actori, procese, artefacte, hardware etc.), se pot 
constitui ca bază pentru identificarea amenințărilor (4). Trebuie să se acorde o atenţie specială la 
protecția datelor în contextul Al, o preocupare orizontală în toate etapele ciclului de viaţă al Al. 

Ciclul de viaţă al unui sistem AI include mai multe faze interdependente, de la proiectarea 
şi dezvoltarea acestuia (inclusiv subfaze precum analiza cerinţelor, colectarea datelor, instruire, 
testare, integrare), instalare, implementare, operare, întreţinere şi eliminare. Având în vedere 
complexitatea sistemelor AI (şi în general cele de informaţii), se pot defini mai multe modele şi 
metodologii pentru a gestiona această complexitate, în special în fazele de proiectare şi dezvoltare, 
cum ar fi dezvoltare de software agilă, cascadă sau spirală, prototipare rapidă şi incrementală (5). 
Ciclul de viaţă AI definește fazele pe care ar trebui să le urmeze o organizație pentru a profita de 
tehnicile AI şi în special de modelele de învăţare automată (ML) pentru a obține valoare practică 
de afaceri. În scopul acestui document, modelele ML sunt utilizate pentru a reprezenta o 
transformare matematică a datelor de intrare într-un rezultat nou, de ex. utilizaţi datele de intrare 
ale imaginii pentru a recunoaşte feţele. În schimb, algoritmii sunt utilizaţi pentru a actualiza 
parametrii modelului (antrenament) sau pentru a descoperi modele şi relaţii în datele nou furnizate 


şi pentru a deduce rezultatul (6). 
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Având în vedere gama largă şi complexitatea tehnicilor, tehnologiilor, algoritmilor şi 
modelelor implicate în sistemele AI, maparea integrală a acestora într-un singur model de ciclu de 
viață AI nu este posibilă. Particularitățile sistemelor AI şi numeroasele subdomenii ale AI (de 
exemplu, sisteme de raționament, robotică, Al coecționistă vs simbolică etc.) ar necesita generarea 
de modele de referință ţintite bazate pe tehnologia utilizată. Având în vedere importanța actuală a 
învăţării automate (ML) în utilizarea şi implementarea sistemelor AI, am optat pentru a orienta 
modelul de referinţă al ciclului de viaţă AI către ML, pentru a-l face pe de o parte specific şi detaliat 
ŞI, pe de altă parte, abordăm majoritatea sistemelor AI actuale. ML a fost vârful de lance a exploziei 


AI în ultimii zece ani în ceea ce priveşte identificarea imaginilor şi a vocii. 
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(Model de referință generic pentru ciclul de viaţă AI) 
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Pe baza cercetării de birou (7), a fost elaborat un model de referință generic al diferitelor 
componente găsite în sistemele Al comune, prezentat în figură. Scopul existenței unui model de 
referință este de a stabili un cadru conceptual care să asigure înțelegerea comună a activelor care 
compun un sistem Al și relaţiile lor semnificative. Acest lucru facilitează alocarea proprietarilor 
la diferite active pe de o parte şi, pe de altă parte, oferă o modalitate sistematică şi structurată de 
analiză a amenințărilor de securitate relevante. Cu condiţia ca activele să fi fost definite, 
amenințările la adresa sistemelor AI pot fi mapate împotriva acestor active și, în urma acestora, 
pot fi furnizate măsuri de securitate direcționate către proprietarii de active corespunzători. 

Datele sunt unul dintre cele mai valoroase active din inteligenţa artificială; sunt în continuă 
transformare de-a lungul ciclului de viaţă AI (8). Figura de mai Jos ilustrează transformarea datelor 
de-a lungul diferitelor etape ale ciclului de viaţă: Ingestia datelot, Explorarea datelor, 
Preprocesarea datelor, Evidenţierea caracteristicilor, Instruire, Testare şi Evaluare. Transformarea 
datelor de-a lungul ciclului de viaţă AI implică mai multe alte tipuri de active, cum ar fi actorii 
implicaţi, resursele de calcul, software-ul etc., şi chiar unele active netangibile, cum ar fi procesele, 
cultura şi modul în care experiența şi cunoştinţele actorilor pot determina ameninţări potenţial 
neintenționale (de exemplu părtinire neintenționată). 

Diferitele etape ale ciclului de viață AI se pot descrie punând accent pe diferitele active, 


procese şi actori implicaţi (9), precum şi analizând transformările relevante ale datelor. 


(Transformarea datelor de-a lungul etapelor de dezvoltare a ciclului de viaţă al AI) 


Entităţi implicate în ciclul de viață 


Există diferite entități (actori) implicaţi activ în contextul întregului ciclu de viaţă al Al. 
Printre actori se numără designerii Al / designeri de aplicaţii AI implicaţi în proiectarea şi crearea 


sistemelor Al. Există, de asemenea, dezvoltatorii Al care dezvoltă şi construiesc software-ul şi 
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algoritmii utilizaţi în sistemele AI, şi care lucrează şi pentru a le rafina și îmbunătăţi. Experienţa 
şi capacitatea lor joacă un rol cheie în dezvoltarea sistemelor AI securizate. 

Dezvoltatorii şi designerii Al lucrează îndeaproape cu specialiţtii din știința datelor. Munca 
acestora ar putea implica asistența la proiectarea şi dezvoltarea modelelor AI, sau poate consta în 
utilizarea unor astfel de modele şi analizarea rezultatelor. Mai precis, pecialiţtii din ştiinţa datelor 
sunt implicați în colectarea şi interpretarea datelor, concentrându-se pe extragerea de cunoştinţe și 
perspective din acele date. Alţi actori ai ciclului de viață AI sunt inginerii de date, a căror activitate 
implică în primul rând extragerea şi colectarea datelor din diferite surse, apoi transformarea, 
curățarea, standardizarea şi stocarea acestora. Inginerii de date se concentrează în principal pe 
proiectarea, gestionarea şi optimizarea fluxului de date. 

Alţi actori importanţi ai ciclului de viaţă AI sunt proprietarii de date (10). Proprietarii de 
date dețin seturile de date care sunt utilizate fie pentru a instrui/valida sistemele Al, fie pentru a 
folosi aceste sisteme pentru a îndeplini sarcini. Sunt adesea companii care au propriile seturi de 
date legate de afacerea lor, la care implementează un sistem Al pentru a îndeplini o sarcină în 
numele lor. Proprietarii de date pot fi, de asemenea, furnizori / brokeri de date. Aceştia sunt terțe 
părți care monetizează datele utilizate de sistemele AI, fie în scopuri de instruire, fie pentru a 
îndeplini diverse sarcini. Aceştia pot include brokerii comerciali de date, care colectează, 
stochează şi vând diferite tipuri de date, în mod legal. Există, de asemenea, rapoarte ale brokerilor 
de date din zona gri, care adună date despre utilizatori fără ca aceștia să ştie că datele lor personale 
sunt colectate, stocate şi vândute (11). 

Alţi actori ai ciclului de viaţă AI includ furnizorii de modele, care livrează modele (precum 
şi implementări ale acestora sub formă de biblioteci AI/ML) care au fost deja testate şi ajustate. 
Unii furnizori de modele sunt furnizori de cloud, care oferă modelele ca serviciu, în special 
utilizarea capabilităților de calcul şi analiză a datelor bazate pe AI în cloud. Pe lângă furnizorii de 
modele, alţi actori implică furnizori terţi care pot oferi, de asemenea, cadre software şi biblioteci 
terțe, pe care dezvoltatorii le pot folosi pentru instruirea sistemelor AI şi hardware specializat de 
înaltă performanță. 

În cele din urmă, există utilizatorii finali care folosesc sisteme AI, inclusiv consumatorii 
de servicii. Acestea ar putea fi companii, dintre care multe sunt utilizatori de modele. Acestea 
includ, de asemenea, consumatorii şi publicul larg. Utilizatorii finali pot fi şi utilizatori ai altor 


sisteme AI. 
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Fazele ciclului de viaţă AI 
Definirea scopului 


Înainte de a realiza orice dezvoltare de aplicaţie/sistem AI, este important ca organizaţia 
utilizator să înțeleagă pe deplin contextul de afaceri al aplicației/sistemului AI și datele necesare 
pentru a atinge obiectivele de afaceri ale aplicației AI, precum şi valorile de afaceri care vor fi 
utilizate pentru a evalua gradul în care aceste obiective au fost atinse. 

Faza de definire a obiectivelor de afaceri pe scurt: Identificarea scopului comercial al 
aplicaţiei/sistemului Al. Conectarea scopului cu întrebarea la care trebuie să răspundă modelul Al 


care va fi utilizat în aplicație/sistem. Identificarea tipului de model pe baza întrebării. 


Ingestia datelor 


Ingestia datelor este etapa ciclului de viaţă AI în care datele sunt obținute din surse multiple 
(datele brute pot fi sub orice formă structurată sau nestructurată) pentru a alcătui puncte de date 
multidimensionale, numite vectori, pentru utilizare imediată sau pentru stocare pentru a fi accesate 
şi folosite ulterior. Ingestia datelor stă la baza oricărei aplicații Al. Datele pot fi ingerate direct din 
sursele lor în timp real, într-un mod continuu cunoscut și sub denumirea de streaming, sau prin 
importul de loturi de date, unde datele sunt importate periodic în macro-loturi mari sau în micro- 
loturi mici. 

Diferite mecanisme de asimilare pot fi active simultan în aceeași aplicaţie, sincronizând 
sau decuplând ingerarea în lot şi în flux a acelorași fluxuri de date. Componentele de asimilare pot, 
de asemenea, specifica adnotarea datelor, adică dacă ingerarea este efectuată cu sau fără metadate 
(dicționar de date sau ontologia/taxonomia tipurilor de date). Adesea, controlul accesului operează 
în timpul ingerării datelor, modelând starea de confidenţialitate a datelor (date personale/non- 
personale), alegând tehnici adecvate de păstrare a confidenţialităţii şi ținând cont de compromisul 
realizabil între impactul asupra confidențialității şi acurateţea analitică. Conformitatea cu cadrul 
legal aplicabil al UE privind confidențialitatea şi protecţia datelor trebuie să fie asigurată în toate 
cazurile. 

Statutul de confidenţialitate alocat datelor este utilizat pentru a defini Acordul privind 
nivelul de servicii al aplicaţiei AI (SLA) în conformitate cu cadrul legal aplicabil al UE privind 
confidențialitatea şi protecția datelor, incluzând, printre altele, posibilitatea de inspecție/auditare a 


autorităţilor de reglementare competente (cum ar fi Autorităţile de protecție a datelor). Este 
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important de remarcat că, în ingerarea datelor, poate apărea un conflict de guvernare IT. Pe de o 
parte, datele sunt compartimentate de către proprietarii săi pentru a asigura controlul accesului și 
protecția vieţii private; pe de altă parte, trebuie să fie integrat pentru a permite analiza. Adesea, 
pentru articolele din aceeaşi categorie se aplică politici şi reguli diferite. Pentru sursele de date 
multimedia, protocoalele de acces pot urma chiar şi o abordare Digital Right Management (DRM) 
în care dovada de reţinere trebuie mai întâi negociată cu serverele de licenţă. Este responsabilitatea 
designerului de aplicaţii AI să se asigure că ingerarea se face respectând politicile furnizorilor de 
date privind utilizarea datelor și cadrul legal aplicabil în UE privind confidențialitatea şi protecția 
datelor. 

Faza de colectare/ingestie a datelor pe scurt: Identificarea datelor de intrare (dinamice) 
care trebuie colectate și metadatele de context corespunzătoare. Organizarea asimilării în funcție 


de cerinţele aplicației AI, importând date într-un flux, lot sau multimodal. 


Explorarea datelor 


Explorarea datelor în inteligența artificială (AI) este etapa în care informaţiile încep să fie 
preluate din datele ingerate. Deşi poate fi omisă în unele aplicaţii Al unde datele sunt bine înţelese, 
este de obicei o fază a ciclului de viaţă AI care necesită foarte mult timp. În această etapă, este 
important să înţelegeți tipul de date care au fost colectate. Trebuie făcută o distincție cheie între 
diferitele tipuri posibile de date, datele numerice și cele categoriale fiind cele mai proeminente 
(12), alături de datele multimedia (de exemplu, imagine, audio, video etc.) (13). Datele numerice 
se pretează la reprezentare grafică şi permit calculul statisticilor descriptive şi verificarea dacă 
datele se potrivesc cu distribuțiile parametrice simple precum cea gaussiană. Valorile datelor lipsă 
pot fi, de asemenea, detectate şi gestionate în etapa de explorare. Variabilele categoriale sunt cele 
care au două sau mai multe categorii, dar fără o ordine intrinsecă. Dacă variabila are o ordonare 
clară, atunci este considerată ca o variabilă ordinală. 

Validarea/explorarea datelor pe scurt: Verificaţi dacă datele se potrivesc unei distribuții 
statistice cunoscute, fie prin componentă (distribuții monovariate), fie ca vectori (distribuții 


multivariate). Estimaţi parametrii statistici corespunzători. 


CICLUL DE VIAȚĂ AL INTELIGENȚEI ARTIFICIALE 


Preprocesarea datelor 


Etapa de pre-procesare a datelor foloseşte tehnici de curățare, integrare şi transformare a 
datelor. Acest proces are ca scop îmbunătăţirea calității datelor care va îmbunătăți performanţa şi 
eficiența întregului sistem AI prin economisirea de timp în faza de pregătire a modelelor analitice 
şi prin promovarea unei calități mai bune a rezultatelor. Mai exact, termenul de curăţare a datelor 
desemnează tehnici de corectare a inconsecvențelor, de eliminare a zgomotului și de 
anonimizare/pseudonimizare a datelor. 

Integrarea datelor reunește datele care provin din mai multe surse, în timp ce transformarea 
datelor pregăteşte datele pentru a alimenta un model analitic, de obicei prin codificarea lor într-un 
format numeric. O codificare tipică este o codificare one-hot folosită pentru a reprezenta 
variabilele categoriale ca vectori binari. Această codificare necesită mai întâi ca valorile 
categoriale să fie mapate la valori întregi. Apoi, fiecare valoare întreagă este reprezentată ca un 
vector binar care are toate valorile zero, cu excepția poziției numărului întreg, care este marcat cu 
Il. 

Odată convertite în numere, datele pot fi supuse altor tipuri de transformări: 
redimensionare, standardizare, normalizare şi etichetare (14). La finalul acestui proces, se obține 
un set de date numerice, care va sta la baza antrenării, testării şi evaluării modelului Al. 

Deoarece a avea un set de date suficient de mare este unul dintre factorii cheie de succes 
atunci când se instruieşte corect un model, este obișnuit să se aplice diferite tehnici de creștere a 
datelor acelor seturi de date de antrenament care sunt prea mici. De exemplu, este obişnuit să se 
includă într-un set de date de antrenament diferite versiuni scalate sau rotite de imagini, care erau 
deja în acel set de date. Un alt exemplu de tehnică de creştere a datelor care poate fi folosită la 
procesarea textului este înlocuirea unui cuvânt cu sinonimul său. Chiar şi în acele cazuri în care 
setul de date de antrenament este suficient de mare, tehnicile de creştere a datelor pot îmbunătăți 
modelul antrenat final. Datele pot fi, de asemenea, augmentate pentru a le creşte cantitatea și 
diversitatea scenariilor acoperite. Augmentarea datelor constă de obicei în aplicarea 
transformărilor despre care se ştie că păstrează etichetele, de exemplu modelul nu ar trebui să-și 
modifice rezultatul (şi anume predicția) atunci când este prezentat cu elementele de date 
transformate. Augmentarea datelor poate servi la îmbunătăţirea performanţei unui model și în 


special a robusteţei acestuia la perturbații benigne. O sarcină în care augmentarea datelor este 
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utilizată în mod implicit este clasificarea imaginilor, unde datele pot fi augmentate, de exemplu, 
aplicând translații, rotații şi filtre de estompare. 

Preprocesarea datelor pe scurt: Convertirea datelor ingerate într-un format metric 
(numeric), integrarea datelor din diferite surse, gestionarea valorilor lipsă/nule prin interpolare, 
densificarea pentru a reduce dispersitatea datelor, eliminarea zgomotului, filtrarea valorii aberante, 
modificarea intervalului de reprezentare, anonimizarea/pseudonimizarea datelor, augmentarea 


datelor. 


Selectarea caracteristicilor 


Selectarea caracteristicilor (în ingineria generală a caracteristicilor) este etapa în care se 
reduce numărul de componente sau caracteristici (numite şi dimensiuni) care compun fiecare 
vector de date, prin identificarea componentelor care se consideră a fi cele mai semnificative 
pentru modelul AI (15). Rezultatul este un set de date redus, deoarece fiecare vector de date are 
mai puține componente decât înainte (16). Pe lângă reducerea costurilor de calcul, selecția 
caracteristicilor poate aduce modele mai precise. În plus, modelele construite pe baza datelor de 
dimensiuni inferioare sunt mai înțelese şi explicabile. Această etapă poate fi, de asemenea, 
încorporată în faza de construire a modelului (de exemplu, la procesarea datelor de imagine sau de 
vorbire). 

Selectarea caracteristicilor pe scurt: Identificarea dimensiunilor setului de date care 
reprezintă un parametru global, de ex. varianţa generală a etichetelor. Datele proiectului sunt 


stabilite de-a lungul acestor dimensiuni, eliminând pe celelalte. 


Selectarea/construirea modelului 


Această etapă realizează selecția/construirea celui mai bun model sau algoritm AI (17) 
pentru analiza datelor. Este o sarcină dificilă, adesea supusă încercărilor și erorilor. Pe baza 
obiectivului de afaceri şi a tipului de date disponibile, pot fi utilizate diferite tipuri de tehnici Al. 
Cele trei categorii majore identificate în mod obişnuit sunt învăţarea supravegheată, învățarea 
nesupravegheată și modelele de învăţare prin întărire. Tehnicile supravegheate tratează datele 
etichetate: modelul AI este folosit pentru a învăţa maparea dintre exemplele de intrare şi ieșirile 


țintă. 
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Modelele supravegheate pot fi proiectate ca Clasificatori, al căror scop este să prezică o 
etichetă de clasă, şi Regresori, al căror scop este să prezică o funcţie de valoare numerică a 
intrărilor. Aici, câţiva algoritmi obişnuiţi sunt Support Vector Machines, Naive Bayes, Hidden 
Markov Model, rețele bayesiene şi reţele neuronale. 

Tehnicile nesupravegheate folosesc date de antrenament neetichetate pentru a descrie și a 
extrage relații din acestea, cu scopul de a le organiza în clustere, de a evidenția asocierea dintre 
spațiul de intrare a datelor, de a rezuma distribuția datelor şi de a reduce dimensionalitatea datelor. 
Învăţarea prin întărire mapează situaţii cu acțiuni, prin învăţarea comportamentelor care vor 
maximiza o funcție de recompensă dorită. 

În timp ce tipul de date de antrenament, etichetat sau nu, este esenţial pentru tipul de tehnică 
necesar a fi utilizat şi selectat, modelele pot fi, de asemenea, construite de la zero (deşi acest lucru 
este destul de puţin probabil), cercetătorul de date proiectând şi codificând modelul, cu tehnicile 
inerente de inginerie software; sau construind un model prin combinarea unei compoziţii de 
metode (18). Este important de remarcat că selecția modelului (şi anume alegerea modelului 
adaptat la date) poate declanșa o transformare ulterioară a datelor de intrare, deoarece diferite 
modele AI necesită codificări numerice diferite ale vectorilor de date de intrare. 

În general, selectarea unui model include şi alegerea strategiei sale de antrenament. În 
contextul învăţării supravegheate, de exemplu, antrenamentul presupune calcularea (0 funcție de 
învăţare a) diferenţei dintre rezultatul modelului atunci când primeşte fiecare element de date din 
set de antrenament D ca intrare şi eticheta lui D. Acest rezultat este folosit pentru a modifica 
modelul pentru a reduce diferența. 

Sunt disponibili mulți algoritmi de antrenament pentru minimizarea erorilor, majoritatea 
bazaţi pe coborârea gradientului. Algoritmii de antrenament au proprii lor hiperparametri, inclusiv 
funcția (19) care trebuie utilizată pentru a calcula eroarea modelului (de exemplu, eroarea medie 
pătrată) şi dimensiunea lotului, adică numărul de eşantioane etichetate care urmează să fie 
alimentate modelului pentru a acumula o valoare a erorii la să fie utilizat pentru adaptarea 
modelului în sine. 

Selecţia modelului AI pe scurt: Alegerea tipului de model AI potrivit pentru aplicaţie. 
Codificarea vectorilor de intrare a datelor pentru a se potrivi cu formatul de intrare preferat al 


modelului. 
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Instruirea modelului 


După ce am selectat un model Al, care în contextul acestui model de referință se referă în 
principal la un model de învățare automată (ML), începe faza de instruire a sistemului Al. În 
contextul învățării supravegheate, modelul ML selectat trebuie să treacă printr-o fază de 
antrenament, în care parametrii interni ai modelului, cum ar fi ponderile şi părtinirea, sunt învățați 
din date. Acest lucru permite modelului să înțeleagă datele utilizate şi, astfel, să devină mai capabil 
să le analizeze. Din nou, antrenamentul presupune calcularea (o funcție a) diferenţei dintre 
rezultatul modelului atunci când primeşte fiecare element de date D al setului de antrenament ca 
intrare şi eticheta lui D. Acest rezultat este folosit pentru a modifica modelul pentru a reduce 
diferenţa dintre rezultatul dedus și rezultatul dorit și astfel duce progresiv la rezultate mai precise, 
așteptate. 

Faza de antrenament va alimenta modelul ML cu loturi de vectori de intrare şi va folosi 
funcția de învăţare selectată pentru a adapta parametrii interni ai modelului pe baza unei măsuri 
(de exemplu, pierdere liniară, pătratică, log) a diferenţei dintre ieşirea modelului şi etichetele. 
Adesea, setul de date disponibil este împărțit în această etapă într-un set de antrenament, utilizat 
pentru setarea parametrilor modelului, şi un set de testare, în care criteriile de evaluare (de exemplu 
rata de eroare) sunt înregistrate doar pentru a evalua performanța modelului în afara setului de 
antrenament. Schemele de validare încrucişată partiționează aleatoriu de mai multe ori un set de 
date într-un antrenament şi o porţiune de testare de dimensiuni fixe (de exemplu, 80% şi 20% din 
datele disponibile) şi apoi repetă fazele de instruire şi validare pe fiecare partiție. 

Instruirea modelului Al pe scurt: Aplicarea algoritmului de antrenament selectat cu 
parametrii corespunzători pentru a modifica modelul ales în funcție de datele de antrenament. 
Validarea antrenamentului modelului pe setul de testare conform unei strategii de validare 


încrucişată. 


Ajustarea modelului 


Reglajul modelului se suprapune de obicei cu antrenamentul modelului, deoarece reglarea 
este de obicei luată în considerare în cadrul procesului de antrenament. Am optat pentru separarea 
celor două etape din ciclul de viață AI pentru a evidenția diferenţele în ceea ce priveşte operarea 
funcțională, deşi cel mai probabil este ca în majoritatea sistemelor AI să fie ambele parte a 


procesului de instruire. 
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Anumiți parametri definesc concepte de nivel înalt despre model, cum ar fi funcția sau 
modalitatea lor de învăţare, şi nu pot fi învăţaţi din datele de intrare. Aceşti parametri speciali, 
adesea numiți hiper-parametri, trebuie configurați manual, deşi în anumite circumstanţe pot fi 
reglaţi automat prin căutarea în spaţiul parametrilor modelului (20). Această căutare, numită 
optimizare cu hiper-parametri (21), este adesea efectuată folosind tehnici clasice de optimizare, 
cum ar fi căutarea în grilă, dar pot fi utilizate căutarea aleatorie și optimizarea bayesiană. Este 
important de remarcat faptul că etapa Ajustarea modelului foloseşte un set de date special (numit 
adesea set de validare), distinct de seturile de antrenament și test utilizate în etapele anterioare. De 
asemenea, poate fi luată în considerare o fază de evaluare pentru a estima limitele rezultatelor și 
pentru a evalua modul în care modelul s-ar comporta în condiţii extreme, de exemplu, prin 
utilizarea seturilor de date greșite/nesigure. Este important de remarcat faptul că, în funcție de 
numărul de hiper-parametri care trebuie ajustaţi, încercarea tuturor combinațiilor posibile poate să 
nu fie fezabilă. 

Ajustarea modelului AI pe scurt: Aplicarea adaptării modelului la hiper-parametrii 


modelului AI antrenat folosind un set de date de validare, în funcţie de condiţia de implementare. 


Învăţarea prin transfer 


În această fază, organizaţia utilizatorului se aprovizionează cu un model AI pre-antrenat şi 
pre-ajustat şi îl foloseşte ca punct de plecare pentru formarea ulterioară pentru a obține o 
convergență mai rapidă și mai bună. Acesta este de obicei cazul când sunt disponibile puţine date 
pentru antrenament. Trebuie remarcat faptul că toţi paşii descrişi mai sus (reglare, testare etc.) se 
aplică şi pentru învăţarea prin transfer. Mai mult, deoarece în multe cazuri învăţarea prin transfer 
este aplicată, se poate considera învăţarea prin transfer ca parte a fazei de antrenament a modelului, 
având în vedere că învăţarea prin transfer serveşte de obicei ca punct de plecare al algoritmului de 
antrenament. Pentru a asigura un domeniu mai larg, distingem învăţarea prin transfer într-o fază 
distinctă din ciclul de viață AI prezentat aici. 

Învăţarea prin transfer pe scurt: Obţinerea unui model AI pregătit în prealabil în acelaşi 
domeniu de aplicaţie şi aplicarea instruirii suplimentare, după cum este necesar, pentru 


îmbunătăţirea acurateţii în producție. 
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Implementarea modelului 


Un model de învăţare automată va aduce cunoaştere unei organizaţii numai atunci când 
predicțiile sale devin disponibile pentru utilizatorii finali. Implementarea este procesul de preluare 
a unui model instruit şi de punere la dispoziție utilizatorilor. 

Implementarea modelului pe scurt: Generarea unei încadrări în producţie a modelului ca 
software, firmware sau hardware. Implementarea încadrării modelului în edge sau cloud, 


conectând fluxurile de date din producţie. 


Întreţinerea modelului 


După implementare, modelele AI trebuie monitorizate şi menținute în mod continuu pentru 
a gestiona schimbările de concept şi potenţialele devieri de concept care pot apărea în timpul 
funcționării lor. O schimbare de concept are loc atunci când semnificaţia unei intrări în model (sau 
a unei etichete de ieşire) se schimbă, de ex. din cauza reglementărilor modificate. O deviere a 
conceptului apare atunci când schimbarea nu este drastică, ci apare încet. Deriva se datorează 
adesea încrustării senzorului, adică evoluției lente în timp a rezoluţiei senzorului (cea mai mică 
diferență detectabilă între două valori) sau a intervalului general de reprezentare. O strategie 
populară pentru a gestiona întreținerea modelului este reînvăţarea bazată pe ferestre, care se 
bazează pe puncte de date recente pentru a construi un model ML. O altă tehnică utilă pentru 
întreținerea modelului AI este testarea înapoi. În cele mai multe cazuri, organizaţia utilizatoruluir 
ştie ce s-a întâmplat după adoptarea modelului AI şi poate compara predicția modelului cu 
realitatea. Acest lucru evidențiază schimbările de concept: dacă un concept de bază se schimbă, 
organizaţiile văd o scădere a performanței. O altă modalitate de a detecta aceste devieri de concept 
poate determina caracterizarea statistică a setului de date de intrare utilizat pentru antrenamentul 
modelului Al, astfel încât să fie posibil să se compare acest set de date de antrenament cu datele 
de intrare curente în ceea ce priveşte proprietățile statistice. Diferenţele semnificative între seturile 
de date pot indica prezenţa unor potenţiale deviații de concept care pot necesita efectuarea unui 
proces de reînvăţare, chiar înainte ca rezultatul sistemului să fie afectat semnificativ. În acest fel, 
procesele de recalificare/reînvăţare, care pot fi consumatoare de timp şi resurse, pot fi efectuate 
numai atunci când este necesar şi nu periodic, ca în strategiile de reînvăţare bazate pe ferestre 


menţionate mai sus. ÎIntreţinerea modelului reflectă, de asemenea, nevoia de a monitoriza 
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obiectivele şi activele de afaceri care ar putea evolua în timp şi, în consecință, să influențeze 
modelul în sine. 

Întreţinerea modelului pe scurt: Monitorizarea rezultatelor inferenței ML ale modelului 
AL implementat, precum și datele de intrare primite de model, pentru a detecta posibile modificări 


sau derive ale conceptului. Reantrenarea modelului atunci când este necesar. 


Înțelegerea afacerii 


Construirea unui model Al este adesea costisitoare şi întotdeauna necesită timp. Prezintă 
mai multe riscuri de afaceri, inclusiv nerespectarea unui impact semnificativ asupra organizaţiei 
utilizatorului, precum şi lipsa termenelor limită în producție după finalizare. Înțelegerea afacerii 
este etapa în care companiile care implementează modele AI obţin o perspectivă asupra impactului 
AI asupra afacerii lor şi încearcă să maximizeze probabilitatea de succes. 

Înțelegerea afacerii pe scurt: Evaluarea propunerilor de valoare a modelului AI 
implementat. Estimarea (înainte de implementare) şi verificarea (după implementare) a impactului 


său asupra afacerii. 


Note 


1. A se vedea https://ec.europa.eu/futurium/en/ai-alliance-consultation/guidelines, aprilie 
2019 

2. Evident, modelele de cutie albă sunt, de asemenea, susceptibile la atacuri cibernetice, 
deoarece adversarii au informaţii la scară largă pentru a adapta atacurile. 

3. Aceasta se referă atât la atacurile fizice asupra sistemelor AI, cât şi la robusteţea sistemelor 
AL împotriva variațiilor și evenimentelor care apar în mod natural. 

4. Aici considerăm că sursele de date pentru AI au fost protejate şi sunt considerate a fi sigure. 
În abordarea noastră, ciclul de viaţă al aplicaţiei AI este considerat un model generic pentru 
fundamentul identificării activelor şi amenințărilor, şi nu este conceput ca o declarație. 
Buclele de feedback prezentate nu sunt exhaustive, deoarece cazuri de utilizare diferite pot 
urma drumuri diferite şi omite unele dintre fazele ciclului de viaţă generic. Hărțile mentale 
au fost incluse ca un prim pas către un model de referință complet. 

5. A se vedea  https://ec.europa.eu/digital-single-market/en/news/assessment-list- 

trustworthy-artificial-intelligence-alta1-self-assessment 

Peisajul amenințărilor presupune înțelegerea de bază a terminologiei şi conceptelor AI. 

7. Inclusiv lucrările deja menţionate de la EC JRC, EC AI HLEG, EDA, ETSI ISG SAI, NIST, 
Stiftung Neue Verantwortung, Mcrosoft (https://docs.microsoft.com/en- 
us/security/engineering/threat-modeling-aiml ), Berryville Institute of Machine Learning 
(https://berryvilleiml.com/) şi BSI (https://doi.org/10.3389/fdata.2020.00023). 

8. În ceea ce priveşte categoriile de date şi proveniența datelor, distingem între următoarele. 


i 
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10. 


Il. 


12. 


13. 


14. 


13; 


16. 


17. 
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a. Date auto-raportate, furnizate voluntar de un operator „de încredere” (de exemplu, 
AIS pentru o navă sau ADS-B pentru o aeronavă, date cooperative şi 
guvernamentale). 

b. Datele observate colectate de sisteme „securizate” active sau pasive (de exemplu 
IDS, senzori, RFID, camere, IoT în general, radare), integritatea datelor depinde de 
o varietate de parametri (rezoluţie, interval, reîmprospătare, latență, condiţii de 
mediu, dimensiune, orientare, caracteristici electromagnetice). 

c. Registre de informații şi baze de date: conţin informaţii care leagă date (ID-uri 
aeronave sau nave, ID-uri umane din sistemele moştenite civile, ID-uri obiecte 
inteligente din industrii) cu detalii despre structura acesteora, construcţie, aspect, 
istoric şi interacțiuni, activitate, social media din sursele de internet libere și 
deschise (ex. Twitter, Youtube, Facebook, WhatsApp, Media, Open DB) sunt de 
asemenea incluse în această categorie. 

Modelul de referință detaliază fazele tipice, diferite ale ciclului de viaţă Al. O referire 
demnă de remarcat trebuie făcută la soluţiile automate de învăţare automată (oferite de mai 
mulți furnizori) care cuprind marea majoritate a etapelor ciclului de viață AI pentru a 
facilita dezvoltatorii de produse. În ciuda numeroaselor iniţiative de cercetare şi comerciale 
pentru dezvoltarea unor mecanisme şi instrumente automate eficiente de învăţare automată, 
au fost identificate multe provocări, inclusiv probleme de transparenţă (funcţionare în cutie 
neagră), reproductibilitate limitată etc. 

De reținut că, în cazul datelor cu caracter personal, rolul proprietarilor de date este 
echivalent cu cel al operatorilor de date. 

Evident, dacă apar astfel de cazuri, atunci există o lipsă clară de conformitate cu prevederile 
GDPR şi o analiză juridică suplimentară (în afara domeniului de aplicare al acestei lucrări) 
este foarte recomandată. 

Discuţia se referă în principal la date nunerice, tabelare. Cu toate acestea, trebuie menţionat 
că sistemele AI pot folosi şi alte tipuri de date, de ex. discurs, imagini. Acestea sunt, de 
asemenea, numerice, dar verificările de corectitudine au un grad avansat de complexitate, 
pentru care nu se efectuează nicio explorare a datelor așa cum este descrisă aici. 

Datele multimedia sunt date complexe care sunt foarte relevante în contextul învățării 
profunde. 

Re-scalarea este utilizată pentru a se asigura că toate variabilele sunt exprimate pe aceeaşi 
scară, deoarece unele metode pot trece cu vederea variabilele cu intensitate mai mică. 
Standardizarea este utilizată pentru a modifica media unei distribuții de valori la 0, în timp 
ce normalizarea mapează datele la un interval de reprezentare compact (de exemplu, 
intervalul (0, 1), împărțind toate valorile la maxim). Etichetarea (realizată de experți umani 
sau de alte aplicaţii AI) asociază fiecare element de date la o categorie sau o predicție. 
Modelele de învăţare automată sunt algoritmi antrenați cu date istorice care descoperă 
modele şi relaţii şi construiesc modele matematice folosind aceste descoperiri. 

Este de remarcat faptul că nu este întotdeauna cazul. În special, în abordările recente de 
învăţare profundă care iau în considerare abordări end-to-end de învăţare profundă, în care 
nu se realizează nicio procesare a caracteristicilor. 

Stuart ]. Russell şi Peter Norvig, „Artificial Intelligence: A Modern Approach”, Prentice 
Hall Press. I5BN:978-0-13-604259-4 
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18. Prin combinare de metode ne referim la ansamblu de modele care constă în combinarea 
rezultatelor mai multor modele pentru a profita de avantajele diferitelor abordări, cu prețul 
unei complexități mai mari. 

19. În învăţarea profundă, unde sunt concepute funcții de pierdere posibil extrem de complexe 
şi sunt un element cheie al procesului de formare. 

20. Reglarea hiper-paratametrelor este adesea o sarcină dificilă, având în vedere că spațiul 
hiper-parametrilor este de obicei imens, iar procesul necesită o cantitate mare de timp şi 
resurse de calcul. Mai mult, trebuie remarcat faptul că acest tip de reglare necesită o 
reinstruire frecventă a modelului. 

21. Trebuie remarcat faptul că acest proces este foarte costisitor din punct de vedere 
computaţional și tinde să fie limitat, în special în aplicaţiile de învăţare profundă, unde 
antrenamentul poate dura zile sau săptămâni. 
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